In this paper, we propose a large-scale language pre-training for text GENeration using dIffusion modEl, which is named GENIE. GENIE is a pre-training sequence-to-sequence text generation model which combines Transformer and diffusion. The diffusion model accepts the latent information from the encoder, which is used to guide the denoising of the current time step. After multiple such denoise iterations, the diffusion model can restore the Gaussian noise to the diverse output text which is controlled by the input text. Moreover, such architecture design also allows us to adopt large scale pre-training on the GENIE. We propose a novel pre-training method named continuous paragraph denoise based on the characteristics of the diffusion model. Extensive experiments on the XSum, CNN/DailyMail, and Gigaword benchmarks shows that GENIE can achieves comparable performance with various strong baselines, especially after pre-training, the generation quality of GENIE is greatly improved. We have also conduct a lot of experiments on the generation diversity and parameter impact of GENIE. The code for GENIE will be made publicly available.
translated by 谷歌翻译
As the quality of optical sensors improves, there is a need for processing large-scale images. In particular, the ability of devices to capture ultra-high definition (UHD) images and video places new demands on the image processing pipeline. In this paper, we consider the task of low-light image enhancement (LLIE) and introduce a large-scale database consisting of images at 4K and 8K resolution. We conduct systematic benchmarking studies and provide a comparison of current LLIE algorithms. As a second contribution, we introduce LLFormer, a transformer-based low-light enhancement method. The core components of LLFormer are the axis-based multi-head self-attention and cross-layer attention fusion block, which significantly reduces the linear complexity. Extensive experiments on the new dataset and existing public datasets show that LLFormer outperforms state-of-the-art methods. We also show that employing existing LLIE methods trained on our benchmark as a pre-processing step significantly improves the performance of downstream tasks, e.g., face detection in low-light conditions. The source code and pre-trained models are available at https://github.com/TaoWangzj/LLFormer.
translated by 谷歌翻译
Implementing fully automatic unmanned surface vehicles (USVs) monitoring water quality is challenging since effectively collecting environmental data while keeping the platform stable and environmental-friendly is hard to approach. To address this problem, we construct a USV that can automatically navigate an efficient path to sample water quality parameters in order to monitor the aquatic environment. The detection device needs to be stable enough to resist a hostile environment or climates while enormous volumes will disturb the aquaculture environment. Meanwhile, planning an efficient path for information collecting needs to deal with the contradiction between the restriction of energy and the amount of information in the coverage region. To tackle with mentioned challenges, we provide a USV platform that can perfectly balance mobility, stability, and portability attributed to its special round-shape structure and redundancy motion design. For informative planning, we combined the TSP and CPP algorithms to construct an optimistic plan for collecting more data within a certain range and limiting energy restrictions.We designed a fish existence prediction scenario to verify the novel system in both simulation experiments and field experiments. The novel aquaculture environment monitoring system significantly reduces the burden of manual operation in the fishery inspection field. Additionally, the simplicity of the sensor setup and the minimal cost of the platform enables its other possible applications in aquatic exploration and commercial utilization.
translated by 谷歌翻译
生成对抗网络(GAN)在数据生成方面取得了巨大成功。但是,其统计特性尚未完全理解。在本文中,我们考虑了GAN的一般$ f $ divergence公式的统计行为,其中包括Kullback- Leibler Divergence与最大似然原理密切相关。我们表明,对于正确指定的参数生成模型,在适当的规律性条件下,所有具有相同歧视类别类别的$ f $ divergence gans均在渐近上等效。 Moreover, with an appropriately chosen local discriminator, they become equivalent to the maximum likelihood estimate asymptotically.对于被误解的生成模型,具有不同$ f $ -Divergences {收敛到不同估计器}的gan,因此无法直接比较。但是,结果表明,对于某些常用的$ f $ -Diverences,原始的$ f $ gan并不是最佳的,因为当更换原始$ f $ gan配方中的判别器培训时,可以实现较小的渐近方差通过逻辑回归。结果估计方法称为对抗梯度估计(年龄)。提供了实证研究来支持该理论,并证明了年龄的优势,而不是模型错误的原始$ f $ gans。
translated by 谷歌翻译
作为自动驾驶系统的核心部分,运动计划已受到学术界和行业的广泛关注。但是,由于非体力学动力学,尤其是在存在非结构化的环境和动态障碍的情况下,没有能够有效的轨迹计划解决方案能够为空间周期关节优化。为了弥合差距,我们提出了一种多功能和实时轨迹优化方法,该方法可以在任意约束下使用完整的车辆模型生成高质量的可行轨迹。通过利用类似汽车的机器人的差异平坦性能,我们使用平坦的输出来分析所有可行性约束,以简化轨迹计划问题。此外,通过全尺寸多边形实现避免障碍物,以产生较少的保守轨迹,并具有安全保证,尤其是在紧密约束的空间中。我们通过最先进的方法介绍了全面的基准测试,这证明了所提出的方法在效率和轨迹质量方面的重要性。现实世界实验验证了我们算法的实用性。我们将发布我们的代码作为开源软件包,目的是参考研究社区。
translated by 谷歌翻译
方面情感三胞胎提取(ASTE)旨在提取方面,意见及其情感关系作为情感三胞胎的跨度。现有的作品通常将跨度检测作为1D令牌标记问题制定,并使用令牌对的2D标记矩阵对情感识别进行建模。此外,通过利用诸如伯特(Bert)之类的审计语言编码器(PLES)的代表形式,它们可以实现更好的性能。但是,他们只是利用将功能提取器作为提取器来构建其模块,但从未深入了解特定知识所包含的内容。在本文中,我们争辩说,与其进一步设计模块以捕获ASTE的电感偏见,不如包含“足够”的“足够”功能,用于1D和2D标记:(1)令牌表示包含令牌本身的上下文含义,因此此级别,因此此级别功能带有必要的信息以进行1D标记。 (2)不同PLE层的注意力矩阵可以进一步捕获令牌对中存在的多层次语言知识,从而使2D标记受益。 (3)此外,对于简单的转换,这两个功能也可以很容易地转换为2D标记矩阵和1D标记序列。这将进一步提高标签结果。通过这样做,PLE可以是自然的标记框架并实现新的最新状态,通过广泛的实验和深入分析来验证。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
非负矩阵分解(NMF)已广泛用于降低机器学习的尺寸。但是,传统的NMF无法正确处理异常值,因此对噪声敏感。为了提高NMF的鲁棒性,本文提出了一种自适应加权NMF,它引入了权重,以强调每个数据点的不同重要性,因此降低了对噪声数据的算法敏感性。它与使用缓慢生长相似性度量的现有强大NMF大不相同。具体而言,提出了两种实现这一目标的策略:模糊加权技术和熵加权技术,两者都导致具有简单形式的迭代解决方案。实验结果表明,新方法在具有噪声的几个真实数据集上具有更健壮的特征表示,而不是进行噪声。
translated by 谷歌翻译
尽管有启发式方法,贪婪的算法以及对数据统计变化的变化,但3D实例分割中的当前最新方法通常涉及聚类步骤。相比之下,我们提出了一种以每点预测方式起作用的全面3D点云实例分割方法。为此,它可以避免基于聚类的方法面临的挑战:在模型的不同任务之间引入依赖性。我们发现其成功的关键是为每个采样点分配一个合适的目标。我们建议使用最佳的传输方法来根据动态匹配成本最佳地将目标掩码分配给采样点。我们的方法在扫描仪和S3DIS基准测试方面取得了令人鼓舞的结果。所提出的方法消除了插入依赖性,因此比其他竞争方法代表了更简单,更灵活的3D实例分割框架,同时实现了提高的分割精度。
translated by 谷歌翻译
瞄准以像素 - 明智的语义类别描述陆地覆盖,遥感图像中的语义分割需要在广大地理位置上描绘不同的分布,这很难通过现有深层模型的架构中的均匀像素的前导路径难以实现。虽然已经设计了几种算法来选择用于自然图像分析的像素 - 方面的自适应前向路径,但它仍然缺乏关于如何获得最佳选择的理论支持。在本文中,我们在参数优化方面提供数学分析,指导我们设计一种称为隐藏路径选择网络(HPS-Net)的方法。借助从额外的迷你分支派生的隐藏变量,HPS-Net能够通过调整现有算法中的特征映射和像素 - 明智的路径选择之间的直接关系来解决无法访问的全球最佳的固有问题。路径选择。为了更好的培训和评估,我们进一步优化并将5级高芬图像数据集(GID-5)扩展为具有15个土地覆盖类别,即GID-15的新型。 GID-5和GID-15上的实验结果表明,所提出的模块可以稳定地提高不同深结构的性能,验证所提出的数学分析。
translated by 谷歌翻译